Gemma 4
Gemma 3 ←
Gemma 4 モデルカード  |  Google AI for Developers
多様なアーキテクチャ: 高密度(Dense)型に加え、低負荷で高精度な「混合エキスパート(MoE)」を採用。スマホからサーバーまで柔軟に展開可能
ネイティブ・マルチモーダル: テキストと画像に加え、小型モデル(E2B/E4B)は音声入力に標準対応。動画解析もフレーム処理でこなす。
音声入力までこなすようになったのかミルヒト.icon
思考モード (Thinking): 推論プロセスを段階的に出力する専用モードを搭載し、論理的思考やコード生成能力が大幅に向上した。
長大なコンテキスト: 最大256Kトークンをサポートし、大規模な文書やコードベースの読み込みが可能。
効率化技術: PLE(レイヤごとのエンベディング)により、オンデバイスでのパラメータ効率を最大化している。
Introducing Gemma 4 12B
Gemma 4 12Bの概要
ノートPCでのローカル実行を想定した中規模マルチモーダルモデル
Gemma 4 E4Bと26B MoEの中間に位置するモデル
音声入力をネイティブでサポートする初のミドルサイズモデル
特徴的な統合アーキテクチャ
画像・音声専用の独立したエンコーダーを排除
画像は軽量な埋め込みモジュールで処理
音声信号は生のデータを直接テキストトークンと同じ次元空間に投影
エンコーダーフリー化によりメモリ使用量とレイテンシを削減
性能と効率性
26B MoEに近い推論能力を実現
16GBのVRAMまたはユニファイドメモリで動作可能
推論レイテンシ低減のためマルチトークン予測(MTP)ドラフターを搭載
開発・利用環境
Apache 2.0ライセンスで公開
Hugging FaceやKaggleからチェックポイントを入手可能
Ollama、LM Studio、llama.cpp、vLLMなどの主要フレームワークに対応
公式Skills Repositoryによるエージェント開発支援を提供